智能的演进:从预测到推理
一个未经训练的原始基础模型本质上是一个庞大的统计引擎,专为下一个词的预测而设计。为了将这个“不可预测”的基础模型转变为可靠的助手,工程师们应用了后训练流水线。这一阶段是‘刻意工程化’的层,它使人工智能从神秘的黑箱转变为有结构的系统。
1. 精炼机制
- 监督微调(SFT): 这是“冷启动”阶段。模型通过精心筛选的指令-响应对进行训练,以学习人类对话的基本格式。
- 强化学习(RL)框架: 现代系统如GRPO(组相对策略优化)允许模型通过试错学习,根据逻辑正确性对响应进行评分,而无需额外的、内存占用高的“评判模型”。
2. 通过PEFT实现高效性
全参数更新——重训所有数十亿个权重——对大多数情况来说在计算上是不可能的。相反,我们使用参数高效微调(PEFT):
- LoRA 和 QLoRA: 这些技术在冻结原始权重的同时,向模型中注入小型可训练的“秩分解矩阵”。这使得在消费级硬件上也能实现高质量的适应。
3. 推理流水线规则
构建真正的推理引擎(如 DeepSeek-R1)需要一个特定的四阶段流程:
- 阶段 1: 冷启动(基础指令)。
- 阶段 2: 纯强化学习(开发内部思维链/CoT)。
- 阶段 3: 合成数据生成(高质量推理的拒绝采样)。
- 阶段 4: 最终对齐(将合成推理与创造性和事实性数据融合)。
战略洞察
我们正从将人工智能视为“黑箱”,转向将其看作由机械层构成的工程化体系,以及经过深思熟虑的内部推演过程。
实现逻辑(流程图)
问题 1
为什么参数高效微调(PEFT)被认为是现代人工智能工程的关键?
问题 2
在 GRPO 框架中,模型的响应是如何评分的?
案例研究:定制化法律助理
阅读以下情景并回答问题。
你被要求使用一个拥有 700 亿参数的开源基础模型,创建一个“定制化法律助理”。你的本地服务器集群可用的 GPU 显存有限。
问题 1
你应该使用哪种技术来更新模型,而不会导致硬件崩溃?
答案:
你应该使用LoRA(低秩适配)或QLoRA(量化版 LoRA)。这些 PEFT 技术会冻结 700 亿的基础权重,仅训练微小的适配器矩阵,从而实现在有限显存下的微调。
你应该使用LoRA(低秩适配)或QLoRA(量化版 LoRA)。这些 PEFT 技术会冻结 700 亿的基础权重,仅训练微小的适配器矩阵,从而实现在有限显存下的微调。
问题 2
在“冷启动”阶段,哪种数据最为关键?
答案:
经过筛选的高质量针对法律推理的指令-响应对。这种监督微调(SFT)在复杂的强化学习开始前,教会模型预期的格式和语气。
经过筛选的高质量针对法律推理的指令-响应对。这种监督微调(SFT)在复杂的强化学习开始前,教会模型预期的格式和语气。
问题 3
如果模型开始“虚构”法律条文,推理流水线的哪个阶段应该被加强?
答案:
阶段 3 - 合成数据生成(拒绝采样)。你需要生成多种推理路径,并严格过滤掉包含幻觉的路径,只保留事实正确的推理,以创建一个精炼的数据集用于最终对齐。
阶段 3 - 合成数据生成(拒绝采样)。你需要生成多种推理路径,并严格过滤掉包含幻觉的路径,只保留事实正确的推理,以创建一个精炼的数据集用于最终对齐。